\renewcommand{\baselinestretch}{1.5}
\fontsize{12pt}{13pt}\selectfont

%\chapter[摘要]{摘~~~~要}
\chapter*{摘~要}
\markboth{中~文~摘~要}{中~文~摘~要}
近年来，随着神经网络的引入与发展，说话人确认（Speaker Verification）技术效果显著提升，逐步在智能家居、互联网金融、刑事侦查等身份认证领域落地。实际应用场景中，在背景噪声干扰、录音环境复杂多样等情况之下，系统的性能会明显下降。为了提升说话人确认系统的鲁棒性，本文开展了以下研究工作。

\begin{enumerate}
	\item \textbf{基于神经网络的说话人确认技术：}本文研究了目前主流的几种基于神经网络的说话人确认模型，包括d-vector、x-vector、ResNet34、ECAPA-TDNN。通过消融实验，探究了变速、变调、加性噪声、混响、SpecAugment五种数据增广方式对这些模型的影响。在VoxCeleb1数据集上，ECAPA-TDNN取得了最好的表现，得到了EER/minDCF为3.09\%/0.2940的结果。同时，五种数据增广方式中，加性噪声得到了最好的单一增广结果，EER/minDCF分别为2.55\%/0.2739，相对ECAPA-TDNN基线系统结果降低了11\%/7\%。
	\item \textbf{复杂场景下的说话人确认技术：}说话人确认系统在受到背景噪声、混响等复杂因素影响时，识别准确率会显著下降，因此在复杂场景下说话人确认系统的鲁棒性是研究的重点与难点。针对复杂场景中说话人确认系统可能存在的问题，本文基于ECAPA-TDNN和ResNet34及其变体，使用补体交叉熵和对比损失函数、结合使用卷积与注意力机制、使用模型汤和分数融合策略，探索提升系统鲁棒性的方法。在中文数据集CN-Celeb上，最终得到EER/minDCF最低为7.83\%/0.4157的结果，相对基线系统ECAPA\_1024结果降低了11\%/15\%。
\end{enumerate}

\vspace{-10pt}

\vspace{1em}
\noindent {\fHei 关键词：} \quad 说话人确认，深度神经网络，数据增广，复杂场景

\clearpage
\endinput
